FeynmanBench: El reto de los LLMs multimodales con diagramas de Feynman
FeynmanBench: 2000+ diagramas evalúan 19 LLMs. 70-95% en reconocimiento local, pero 13-17% en topología. Descubre las limitaciones.
FeynmanBench: 2000+ diagramas evalúan 19 LLMs. 70-95% en reconocimiento local, pero 13-17% en topología. Descubre las limitaciones.
Descubre FEM-Bench, el benchmark que evalúa la capacidad de los LLMs para generar código de elementos finitos. Gemini 3 Pro y GPT-5 destacan en los tests.